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Разработка архитектурьт и основньїх инструментов 
компьютерной анимации для построения системь 
синтеза жестового язьтка 


У статті пропонується підхід до розробки програмної системи для синтезу та анімації жестів, 
емоційно-мімічних проявів на обличчі людини з використанням тривимірних моделей тіла людини. 
Описуються основні вимоги до системи, проблеми та інструменти їх вирішення. Розглянуто базову 
архітектуру запропонованої системи та модулі, що відповідають за генерацію анімації та її обробку на 
графічних процесорах. 

Ключові слова: жестова мова, аватар, графічні рушії. 
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В статье предлагаєтся подход к разработке программной системьт для синтеза и анимации жестов, 
змоционально-мимических проявлений на лице человека с использованием трехмерньх моделей тела 
человека. Описьваются основньте требования к системе и инструменть их решения. Рассмотреньт 
базовая архитектура предложенной системь и модули, отвечающие за генерацию анимациий, а также 
ее обработку на графических процессорах. 

Ключевье слова: жестовьій язьгк, аватар, графические движки. 


1955М 1561-5359 «Штучний інтелект» 2013 Хо 3 147 


| Крак Ю.В., Тернов А.С., Лісняк М.П. 


Вступ 


Важливим етапом розвитку графічних процесорів та посилення їх значення для 
персональних комп'ютерів було створення високорівневих шейдерних мов, які дозво- 
ляли створювати складні алгоритми для відображення тривимірної графіки, підвищуючи 
реалістичність зображення (1 |. Завдяки такому розвитку відеопроцесорів стала можливою 
розробка аватарів - віртуальних агентів для взаємодії людини з комп'ютером (ритап- 
сопариег іпіегасіоп). Фундаментальними характеристиками аватарів є реалістичний 
вигляд та рухи, емоційна міміка та артикуляція, природнє промовляння слів та фраз. 
Основними проблемами при розробці аватарів є моделювання якісної тривимірної мо- 
делі, анімація реалістичних рухів, виразів обличчя, артикуляції, синтез природньої мови, 
синхронізація анімації зі звуком. Аватари використовуються в різних сферах, особливо 
в галузі розробки програмного забезпечення для людей з вадами слуху |2|, |3|. У даній ро- 
боті розглядаються проблеми та особливості реалізації аватара для відтворення українсь- 
кої жестової мови для побудови системи інтерактивного навчання жестовій мові. 

У суспільстві важливою є проблема полегшення інтеграції людей з фізичними 
вадами. Це також стосується людей з вадами слуху, глухонімих. Такі люди переважно 
спілкуються жестовою мовою. Відмінності між жестовими та звуковими мовами визначає 
канал, яким передається інформація. У жестових мовах інформація кодується рухами рук, 
тіла, обличчя, очей і сприймається за допомогою зору. Це визначає фундаментальні 
властивості жестових мов: 

1) провідну роль грає простір навколо людини, що говорить; 

2) елементи жесту виконуються і сприймаються одночасно, в той час коли звуко- 
ве мовлення поступово досягає вуха людини. Це дозволяє кодувати більший обсяг 
інформації порівняно зі словом усного мовлення. 

Основною структурною одиницею жестової мови є жест. Жест у жестових мовах 
є аналогом звукового слова, тому деякі лінгвістичні методики можна успішно засто- 
сувати і до нього. Але жесту притаманні унікальні властивості, для опису яких такі 
методики не підходять, наприклад, фіксований порядок для визначення граматичного 
слова не потрібний, оскільки граматичні елементи в жестах виконуються одночасно |41. 

У роботі |4| виділено три параметри, необхідні для опису структури жесту: 

1) місце виконання жесту по відношенню до тіла людини, що промовляє; 

2) форма кисті руки, що виконує жест; 

3) траєкторія руху руки. 

Відзначимо, що жестова мова є справжньою мовою з усіма її складнощами, також 
вона принципово і фундаментально відрізняється від розмовної мови правилами, 
принципами побудови речень 1 т.д. Для вирішення проблеми швидкого і ефективного 
вивчення жестової мови необхідне створення технологій для комп'ютеризації цього 
навчання в силу доступності та сучасності такого підходу. 


Основні вимоги до системи синтезу жестів 

Програмний комплекс для інтерактивного навчання українській жестовій мові 
складається з декількох підсистем, що відповідають за анімацію, звук, розпізнавання 
тощо. Найбільш важливою є підсистема -- жестівник, що відповідає за реалістичну аніма- 
цію жестів, з одночасною анімацією артикуляції та різних емоційних проявів і звуко- 
вим супроводженням (5). Основними архітектурними вимогами для такої системи є: 

1) обчислення в режимі реального часу; 

2) підтримка сучасних підходів і технологій тривимірної графіки для реалістично- 
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го зображення аватара; 

3) кросплатформеність; 

4) модульна структура; 

5) організація бази жестів з великою кількістю даних. 

Надзвичайно важливо, щоб система могла підтримувати обчислення в режимі 
реального часу, оскільки вона є досить ресурсозатратною. Для реалістичного відо- 
браження аватара, його рухів, емоційних проявів необхідно використовувати триви- 
мірні моделі тіла людини з великою кількістю полігонів та скелетом, що складається 
з більш ніж 80 кісток. Також важливо, щоб тривимірний аватар виглядав максималь- 
но реалістично, був схожий на звичайну людину. 

Ці завдання можливо вирішити за допомогою виконання деяких частин програми 
на графічному процесорі за допомогою програмованих шейдерів. Шейдер (англ. З5радег) - 
це програма для одного зі ступенів графічного конвеєра, що використовується в три- 
вимірній графіці для визначення остаточних параметрів об'єкта чи зображення. Вона 
може містити у собі довільної складності описи поглинання та розсіювання світла, накла- 
дення текстури, віддзеркалення і заломлення, затінення, зміщення поверхні 1 ефекти 
пост-обробки (|1|. Програмовані шейдери гнучкі та ефективні. Складні на вигляд по- 
верхні можуть бути візуалізовані за допомогою простих геометричних форм. 


Характеристика основних графічних рушіїв 


Важливим етапом у розробці системи є аналіз наявних технологій для відобра- 
ження тривимірної графіки, так званих графічних рушіїв, основним завданням яких є 
візуалізація тривимірної графіки. Основними критеріями для таких рушіїв є відкритий 
доступ, підтримка програмних шейдерів на мовах СТ.5Ї,, НІ.5І,, СС, підтримка ДігесіХ 
та ОрепСії, та можливість змінити графічну підсистему без зміни програмного коду, 
висока оптимізація, підтримка експорту тривимірних моделей із спеціалізованих програм. 
Також для реалістичного відображення тривимірної моделі тіла людини важлива під- 
тримка різних типів освітлення, можливість по-різному відбивати світло від різних повер- 
хонь, можливість одночасного відображення кількох анімацій. 

Наведеним критеріям повністю відповідають три графічних рушії -- Птіїдрі, Орте, 
та ДОпіу. Окрім того, вони є кросплатформеними, підтримують як ОрепСі, так 1 
ДітесіХ графічні бібліотеки, що в майбутньому може дозволити без проблем порту- 
вати систему на інші платформи. Основними перевагами ПтіяПі є його проста і про- 
зора архітектура, невеликий, але достатній основний функціонал, сумісність з деякими 
аудіобібліотеками |6|. Осте має більш складну архітектуру, потужний функціонал 
для управління матеріалами, підтримку позиційної анімації (ро5е апітайоп), систему 
генерації шейдерів у реальному часі на основі скриптів матеріалів. Також великою 
перевагою О?те є його гнучкість та можливість інтеграції з фізичними рушіями та 
аудіобібліотеками. Обидві системи мають досить розвинену спільноту, яка надає 
підтримку в разі проблем з їх використанням |7). Осге також підтримує мобільну 
систему 105, але, на жаль, не підтримує мобільної системи Ападгоїд без додаткових 
модифікацій. (Ллаїку ж, у свою чергу, є не графічним, а ігровим рушієм, тобто він має 
вбудовану підтримку звуку, фізики, мережі та інших речей, необхідних для триви- 
мірних ігор. Водночас він є простим у користуванні та підтримує мобільні системи, 
такі як Апагоїд та 105, що в час стрімкого зросту мобільних технологій є дуже важливим. 
Основним недоліком ау є те, що це система з закритим кодом і безкоштовною є 
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лише урізана версія її для персональних комп'ютерів, для мобільних систем (Лпіїу є 
платною |8|. Описані характеристики наведені в табл. І. 


Таблиця 1 - Характеристики системи 


Оєте птПебі Опіїу 
Підтримка шейдерів - и Я 
Підтримка ДігесіХ/ Орепеї з з з 
Кросплатформеність на ПК Я з ч 
Підтримка мобільних 
б Тільки Ї05 з і 
пристроїв 
Підтримка звуку Сторонні бібліотеки | Сторонні бібліотеки Вбудована 
Складність рушія Середня Легка Складна 
Бесплатність/Відкритість Я з з 


Архітектура та деталі реалізації модулів програмної 
системи 


Для вирішення проблем вивчення жестової мови програмна система повинна скла- 
датись з таких модулів, як: 

Г) звуковий генератор; 

2) генератор міміки та емоційних проявів; 

3) генератор анімації рухів та жестів; 

4) компонента для синхронізації звуку та міміки; 

5) графічний рушій; 

6) звукова підсистема. 

Кожен з цих модулів повинен бути незалежним та мати можливість бути заміненим 
іншою реалізацією без зміни решти компонент. Схема архітектури показана на рис. 1. 


ЕЇ 
Е 
ЕМ 
2 
5 


Графічний 
ОвтечОпійу 
Оєгед тку 


Показати жест 


Звуковий генератор 
Генератор анімації 
Синихронізатор 


Генератор міміки 
Генератор міміки 
Рендерінг на екран монітора 


Звукова підсистема 


Рисунок 1 - Схема архітектури модуля 
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Використовуючи О»?те 31), було реалізовано модулі 3 та 5 та побудовано програмне 
забезпечення (рис. 2) для відображення тривимірної моделі з простою скелетною аніма- 
цією, керуванням камерою та освітленням. 

У системі було реалізовано 3 програмних шейдери: 

1) шейдер для підтримки карт нормалей, що дозволить досягти більш високої де- 
талізації аватара, не збільшуючи полігональність вхідного меша; 

2) шейдер для підтримки карт відображень для більш реалістичного відтворен- 
ня і відбиття освітлення; 

3) шейдер для підтримки обрахунку скелетної анімації на графічному процесорі, 
що дозволив прискорити обрахунок цієї ресурсомісткої операції. ЕР5 відтворення зріс 
від 30 до 120 за рахунок цього шейдера. Тестування проводилось на відеопроцесорі 
МУІГФІА СеБогсе С102М. 

Розглянемо детальніше структуру генератора анімації рухів. Він складається з двох 
основних компонентів - контролерів анімації: контролера анімації жесту та контро- 
лера анімації стану спокою. 

Загальну схема контролерів анімації подано на рис. 2. Контролер анімації стану 
спокою поєднує роботу кількох контролерів одночасно (зміна напрямку зору; мікро- 
рухи тулуба, зміна пози; мікрорухи головою; імітація дихання). Функціонально робота 
деяких контролерів є взаємозалежною (анімація руху очей 1 рухи голови) або взаємоза- 
мінною. 


Анімація кліпання 


Анмація руху очей 


ші 


«--ю 
- 


Анімація мікрорухів голови 


Анімація міміки обличчя 


Рисунок 2 - Робоче вікно тестового програмного забезпечення 


Важливим аспектом роботи системи є підсистема для управління анімаціями та 
переходами між ними. Було розроблено наступну модель, що підтримує три типи пе- 
реходів між анімаціями: 

1) моментальне завершення першої анімації та старт другої; 

2) плавний перехід від першої анімації до другої; 

3) очікування закінчення першої анімації і після цього старт другої. 

Оскільки перший та третій пункти є досить простими, зупинимось детальніше 
на другому пункті. 

Для забезпечення плавного переходу між двома анімаціями застосовувався наступ- 
ний алгоритм. Спочатку була поставлена умова, що наступна анімація буде стартувати 
за 3096 часу до закінчення стартової анімації. Після цього для кожної анімації встано- 
влювався свій ваговий коефіцієнт, що визначався за наступною формулою: ууеієрі; - 
те! е (0.3 "Лигайоп), угеїєрі» - 1 - меїєбі, де ууеїгПі; - ваговий коефіцієнт першої 
анімації, (штеї,ей - час, що залишився до кінця анімації, дигайоп - довжина анімації. 

Ще одним важливим аспектом системи є рухи обличчя: міміка, артикуляція, та емо- 
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ційні прояви. Для анімації обличчя переважно використовується морфна (плогрі (агееї) 
або позиційна (ровбе) анімація. Скелетну анімацію важко використати для цієї задачі, 
оскільки існує багато різних комбінацій візем та мімічних проявів, що мають відобра- 
жатись на обличчі одночасно. Морфна та позиційна анімація у цьому випадку підходять 
набагато краще, але морфна є більш затратною, оскільки для кожного фіксованого стану 
обличчя потрібно зберігати та обробляти позиції усіх точок обличчя, в той час як для 
позиційної анімації використовуються відхилення від стартового положення, і якщо 
воно нульове, тоді ця точка не обробляється. Водночас використовуючи позиційну ані- 
мацію, набагато легше змішувати різні типи анімацій, наприклад конкретну візему з 
певним емоційним станом. У побудованій системі для відтворення рухів обличчя плану- 
ється використовувати саме позиційну анімацію. 


Висновки 

Отже, у даній роботі було досліджено особливості жестових мов та української 
жестової мови зокрема, виділено її основні особливості. Були проаналізовані основні 
вимоги до систем комп'ютеризації навчання жестових мов, розроблено базову висо- 
корівневу архітектуру для реалізації підсистеми синтезу жестової мови. Розглянуто 
основні інструменти для реалізації програмного забезпечення -- сучасні бібліотеки для 
роботи з тривимірною графікою та звуком, реалізовані два основні модулі - генератор 
анімації та графічний рушій на основі Орге, та певний користувацький інтерфейс для цих 
модулів. 

Подальші дослідження будуть спрямовані на програмну реалізацію модуля для 
анімації міміки та емоційних проявів і її інтеграцію в наявну систему, створення програм- 
ного шейдера для проведення обрахунків цієї анімації на графічному процесорі. Водночас 
для реалістичного відображення очей необхідно додати до системи шейдер, що відпові- 
датиме за відображення зовнішнього світу в очах аватара. 
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Тйе ДеуеЇортепі ої їйе Акгспіїестиге апа Вазіс Ітріетепіз 
о/ Пе Сотриїег Апітайоп /ог 5ієп Гаприаєє 
узіет бЗупіезі5 Сгеайоп 


Ппрогіапі ргобіет ої Ше іпіесгайоп ої реоріє ут їбе Ффзабіййез 15 іпуебіідатей. 
Тре ргобіет арріїез Бої іо Фе рбузіса! деїесіє апа Беагіпе апа зреесії ітраїптепізя. Дис 
іо Ше ассеіегагед деусіортепі ої Ше пеуу іесппоїосіез, Ше ргосе55 ої Ше согатипісайоп 
ресотез еазіег апа орепег. П аПом/5 Бе сгеайоп ої Ше мігіша! аєепіз (50-саПедй «ауаїаг8») 
Шаї Гасійтате Ше ритап іпіегасіїоп улії Ше сопариїег апа рготоїе Ше деуеіортепі ої Ше 
50Йіумаге Їог Фе 5ієп Іапецаєе Кеасріпо. 

Тре гезеагер. ітріез ап арргоасії іо Ше Феуеіортепі ої Бе 5оЙууаге 5узіета уубісі 
іпсІйде5 Ше ргосез5 ої ргопипсіайоп, 5упірезі5 апа апітайоп ої Пе резіигез апа 
етойопаПу-Базед Тасіа! ехргез5і0п5 утТів Ше Беїр ої їде Шгее-Фітепзіопаї! плоде! ої Фе 
ритап Боду. Пі апаЇу5ез Базіс срагасіегі5йся ої Ше єе5шшге Іапоцаєез апд етрба5і7ез оп 
Фе таїп гедиігетепіє Їог Бе уїгіца! «єе5(игег». ТБе рарег іпсішдаеє сотрагайує 
срагасіегі5ййся ої Ше плодегп ге5еагспез, соппесіва ут Бе Шргее-дітепзіопа! єтарбісз. 
Могеоуег, її 5п92е515 Ше сгеайоп ої Фе Базіс пли й-агсріїестиге млі Фе таїп ригрозе ої 
Фе ітріетепіайоп ої їБе з5ибзбузіет ої 5ісєп Іапоцаєе. П дезсгібеє іп Феїаі5 Ше 
ресиПагійеє ої Ше апітабйоп бепегаїог апа дерісіє Ше асогіїрі ої Ше дбе8іиге8! 
шапзійоп. ТБе зупірезі8 ої Бе етойопз апа Гасіа! ехргез55іоп5 15 Бе ппрогіапі рагі ої Ше 
зубіет. ТПе ге5еагсі 5иє2е5і8 Ба5іс плешподз8 ої Бе 50Гайоп ої ія ргобіет. Могеоугг, ії 
сопіаїп5 Бе дезсгірйоп ої'Бе 50Йууаге ітріетепіайоп ої сегіаїп подціез ої Фе зу5іет. 


Стаття надійшла до редакції 09.04.2013. 
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